%% 该模板修改自《计算机学报》latex 模板
%% 主要是将双栏改成单栏，去掉了部分计算机学报标识；
%% 源文件自：https://www.overleaf.com/latex/templates/latextemplet-cjc-xelatex/ybmmymncrrmw
%% 
%%
%% This is file `CjC_template_tex.tex',
%% is modified by Zhi Wang (zhiwang@ieee.org) based on the template 
%% provided by Chinese Journal of Computers (http://cjc.ict.ac.cn/).
%%
%% This version is capable with Overleaf (XeLaTeX).
%%
%% Update date: 2023/03/10
%% -------------------------------------------------------------------
%% Copyright (C) 2016--2023 
%% -------------------------------------------------------------------
%% This file may be distributed and/or modified under the
%% conditions of the LaTeX Project Public License, either version 1.3c
%% of this license or (at your option) any later version.
%% The latest version of this license is in
%%    https://www.latex-project.org/lppl.txt
%% and version 1.3c or later is part of all distributions of LaTeX
%% version 2008 or later.
%% -------------------------------------------------------------------

\documentclass[10.5pt,compsoc,UTF8]{CjC}
\usepackage{CTEX}
\usepackage{graphicx}
\usepackage{footmisc}
\usepackage{subfigure}
\usepackage{url}
\usepackage{multirow}
\usepackage{multicol}
\usepackage[noadjust]{cite}
\usepackage{amsmath,amsthm}
\usepackage{amssymb,amsfonts}
\usepackage{booktabs}
\usepackage{color}
\usepackage{ccaption}
\usepackage{booktabs}
\usepackage{float}
\usepackage{fancyhdr}
\usepackage{caption}
\usepackage{xcolor,stfloats}
\usepackage{comment}
\setcounter{page}{1}
\graphicspath{{figures/}}
\usepackage{cuted}%flushend,
\usepackage{captionhack}
\usepackage{epstopdf}
\usepackage{gbt7714}
\usepackage[linesnumbered,ruled,vlined]{algorithm2e}
\usepackage{longtable}
\usepackage{enumitem}  % 用于自定义列表的间距
\usepackage{fontspec}  % 设置中文字体
\usepackage[ruled,vlined]{algorithm2e}
%===============================%

\headevenname{\mbox{\quad} \hfill  \mbox{\zihao{-5}{ \hfill 《课程名称》  } \hspace {50mm} \mbox{2025 年 6 月}}}%
\headoddname{作者姓名等 \hfill 报告题目}%

%footnote use of *
\renewcommand{\thefootnote}{\fnsymbol{footnote}}
\setcounter{footnote}{0}
\renewcommand\footnotelayout{\zihao{5-}}

\newtheoremstyle{mystyle}{0pt}{0pt}{\normalfont}{1em}{\bf}{}{1em}{}
\theoremstyle{mystyle}
\renewcommand\figurename{figure~}
\renewcommand{\thesubfigure}{(\alph{subfigure})}
\newcommand{\upcite}[1]{\textsuperscript{\cite{#1}}}
\renewcommand{\labelenumi}{(\arabic{enumi})}
\newcommand{\tabincell}[2]{\begin{tabular}{@{}#1@{}}#2\end{tabular}}
\newcommand{\abc}{\color{white}\vrule width 2pt}
\renewcommand{\bibsection}{}
\makeatletter
\renewcommand{\@biblabel}[1]{[#1]\hfill}
\makeatother
\setlength\parindent{2em}
\setmainfont{Times New Roman}
%\renewcommand{\hth}{\begin{CJK*}{UTF8}{gbsn}}
%\renewcommand{\htss}{\begin{CJK*}{UTF8}{gbsn}}


\begin{document}

\onecolumn
\zihao{5-}\noindent 樊畅畅  \hfill 基于大语言模型的命名实体识别的实验\hfill 2025 年 6 月\\
\noindent\rule[0.25\baselineskip]{\textwidth}{1pt}

{
\centering
\vspace{11mm}
{\zihao{2} \heiti 基于大语言模型的命名实体识别的实验}

\vskip 5mm

{\zihao{4}\fangsong 樊畅畅$^{1)}$ \fangsong 方明艳$^{1)}$\fangsong 师雪猛$^{1)}$}

\vspace {5mm}

\zihao{5}{$^{1)}$中原工学院, 郑州 450000}
}

\vskip 5mm


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\section{\heiti 实验目标}
命名实体识别（Named Entity Recognition, NER）作为自然语言处理中的基础任务，其目的是从文本中识别人名、地名、组织机构名等实体。传统NER方法多采用序列标注策略，如基于CRF、BiLSTM-CRF或预训练模型（如BERT）的方式。这些方法虽然在高资源场景下表现良好，但存在三个主要问题：（1）对大规模人工标注数据依赖强；（2）难以处理嵌套实体结构；（3）在低资源环境中性能显著下降。

本文实验的主要目标是验证一种基于大语言模型（LLM）的生成式NER方法——GPT-NER的有效性。该方法将传统序列标注任务转化为自然语言生成任务，通过Prompt Engineering、少样本示例构建和自验证机制，使得LLM可以更自然地进行实体抽取。本文实验意图通过多个维度探讨该方法在不同任务设定下的性能表现，包括：
\begin{itemize}
  \item 验证GPT-NER在标准平面和嵌套NER任务上的性能；
  \item 探究few-shot示例选择策略（随机/句子级/实体级）对性能的影响；
  \item 分析GPT-NER在极低资源条件下的鲁棒性和泛化能力；
  \item 评估自验证机制在减少模型幻觉现象中的作用。
\end{itemize}
\section{实验方法}

\subsection{模型设计}
GPT-NER的核心思想是将序列标注问题转化为文本生成问题。通过设计特定的文本格式，使得LLM输出带有实体边界的文本，从而实现实体识别。例如输入“Columbus is a city”，模型被训练输出为“@@Columbus
\#\# is a city”，其中@@和\#\#标记出实体范围。

这一策略解决了传统方法在长文本中位置对齐难的问题，同时更符合语言模型的自然生成习惯，降低了对复杂标签机制（如BIO或BMES）的依赖。

\subsection{Prompt构造与Few-shot示例}
Prompt的构造分为三部分：
\begin{itemize}
  \item \textbf{任务描述}：例如“任务是识别地点实体”；
  \item \textbf{Few-shot示例}：多个已标注的输入-输出对，指导模型生成格式；
  \item \textbf{测试输入}：实际待处理的句子。
\end{itemize}
为提升few-shot示例的选择质量，我们采用了以下三种策略：
\begin{itemize}
  \item \textbf{随机检索}：从训练集中随机选取示例；
  \item \textbf{句子级嵌入检索}：基于句向量相似度选择语义相似句；
  \item \textbf{实体级嵌入检索}：对实体进行嵌入表示后进行kNN搜索，增强局部语义相关性。
\end{itemize}

\subsection{自验证机制}
由于LLM存在“幻觉”问题（如错误标注非实体为实体），GPT-NER引入了一个自验证阶段。该阶段要求LLM基于抽取结果生成验证判断（例如：“France是否为地点实体？”），仅保留验证为“是”的候选实体，从而显著提升预测的准确性和鲁棒性。

\section{实验设置}

\subsection{数据集说明}
实验在五个广泛使用的NER数据集上进行：
\begin{itemize}
  \item \textbf{CoNLL2003}：包含人名、地名、组织名、其他类共4类实体，文本为英文新闻；
  \item \textbf{OntoNotes5.0}：来自多源语料（如新闻、电话对话等），共包含18类实体；
  \item \textbf{ACE2004/2005}：支持嵌套实体标注，覆盖地理、组织、设施等多个实体类别；
  \item \textbf{GENIA}：生物医学领域语料，标注五类嵌套实体（如DNA、蛋白质等）。
\end{itemize}

\subsubsection{低资源模拟}
我们在CoNLL2003上模拟4种低资源设定（8/100/1,000/10,000训练句子），以评估GPT-NER与传统监督模型在样本不足条件下的性能对比。

\subsubsection{评估指标}
采用以下三个标准指标衡量模型性能：
\[
\text{Precision} = \frac{TP}{TP + FP}, \quad
\text{Recall} = \frac{TP}{TP + FN}, \quad
\text{F1} = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
\]

\section{实验结果与分析}

\subsection{平面NER任务结果（CoNLL2003）}
\begin{table}[htbp]
\centering
\begin{tabular}{lccc}
\toprule
模型 & 精确率 & 召回率 & F1 \\
\midrule
GPT-3 + 随机检索 & 88.18\% & 78.54\% & 83.08\% \\
GPT-3 + 句子级嵌入 & 90.47\% & 95.00\% & 92.68\% \\
GPT-3 + 实体级嵌入 & \textbf{94.06\%} & \textbf{96.54\%} & \textbf{95.30\%} \\
\bottomrule
\end{tabular}
\caption{GPT-NER在CoNLL2003数据集的平面NER表现}
\end{table}

\textbf{分析：} 实体级示例选择策略相比随机和句子级策略带来显著提升，表明NER任务的局部实体上下文更能指导模型准确判断。

\subsection{嵌套NER任务结果（ACE2004）}
\begin{table}[htbp]
\centering
\begin{tabular}{lccc}
\toprule
模型 & 精确率 & 召回率 & F1 \\
\midrule
GPT-3 + 随机检索 & 55.04\% & 41.76\% & 48.4\% \\
GPT-3 + 句子级嵌入 & 65.31\% & 53.67\% & 60.68\% \\
GPT-3 + 实体级嵌入 & \textbf{72.23\%} & \textbf{75.01\%} & \textbf{73.62\%} \\
\bottomrule
\end{tabular}
\caption{GPT-NER在ACE2004嵌套NER任务的结果}
\end{table}

\textbf{分析：} 在实体重叠严重的嵌套NER任务中，生成式方法展现了良好的边界建模能力，自验证策略进一步缓解了错误实体的输出风险。

\subsection{低资源场景实验（CoNLL2003）}
\begin{table}[htbp]
\centering
\begin{tabular}{|c|c|c|}
\hline
训练样本数 & GPT-NER F1值 & 监督模型 F1值 \\
\hline
8 & 60 & $\sim$0 \\
100 & 78 & $\sim$5 \\
1,000 & 85 & $\sim$50 \\
10,000 & 92 & $\sim$70 \\
\hline
\end{tabular}
\caption{低资源环境下GPT-NER与传统监督模型对比}
\end{table}

\textbf{分析：} GPT-NER在极低资源下依然能保持良好性能，体现了LLM通过少量示例泛化任务能力的优势，尤其适用于现实中标注成本高的领域。


\end{document}



